202303.10253v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


专题 : 中 国 高 性 能 计算 发 展 战略 
HPC Development Strategy of Chinaw 


新 兴 高 性 能 计算 行业 应 用 及 
发 展 战略 


BZ” RE ža ASR m 典 ' 万 艺 ' R&R 
1 国家 起算 深圳 中 心 深圳 518055 
2 上 海 超 级 计算 中 心 上 海 201203 


摘要 数据 密集 型 新 兴 行 业 应 用 快速 发 展 ， 是 近年 来 高 性 能 计算 应 用 日 益 广泛 和 深入 的 主要 特征 。 新 兴 高 性 
能 行业 应 用 ， 在 高 性 能 计算 系统 技术 创新 、 计 算 环 境 创新 与 应 用 创新 等 各 个 层面 ， 都 带 来 了 新 的 挑战 与 机 
遇 。 文 章 在 系统 总 结 领域 应 用 进展 的 基础 上 ， 概 括 了 新 兴 行业 应 用 的 技术 特点 与 挑战 ， 提 出 了 加 大 高 性 能 计 
算 系 统 核心 技术 创新 力度 、 构 建 面向 新 型 应 用 的 高 性 能 计算 环境 、 大 力 推进 高 性 能 应 用 软件 研发 、 大 力 推进 
传统 应 用 的 新 方法 开发 ， 以 及 大 力 推 进 大 数据 人 工 智能 等 新 领域 基准 评测 工具 研发 等 发 展 战略 建议 。 
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近 20 年 来 ， 高 性 能 计算 应 用 的 广度 前 所 未 有 地 扩 
展 ， 以 数据 驱动 或 数据 密集 型 计算 为 主要 特征 的 高 性 1 新 兴 高 性 能 计算 应 用 快速 发 展 

能 计算 应 用 不 断 涌现 ， 人 工 智能 技术 在 新 型 和 传统 高 新 兴 高 性 能 计算 行业 应 用 主要 为 数据 驱动 型 应 
性 能 计算 应 用 领域 获得 成 功 实践 ， 应 用 领域 遍及 生物 用， 应 用 领域 从 智慧 城市 到 生物 信息 处 理 ， 乃 至 基本 
良和 息 与 生命 科学 领域 、 智 慧 城市 与 城市 治理 、 网 络 信 “粒子 物理 学 、 天 文学 和 宇宙 学 等 众多 领域 。 数 据 密 集 
息 安全 等 。 这 些 应 用 又 反 过 来 对 高 性 能 计算 技术 ， 包 ”型 计算 为 其 最 主要 的 计算 行为 特征 。 

括 矩 阵 并 行 求解 技术 、 高 性 能 大 数据 处 理 技术 、 智 能 。 1.1 高 性 能 计算 在 智慧 城市 领域 获得 广泛 应 用 


芯片 技术 等 ， 产 生 巨大 的 影响 ， 促 进 了 高 性 能 计算 技 2008 年 ，IBM 提出 智慧 地 球 愿 景 ， 智 慧 城市 的 
术 创 新 。 概念 也 随 之 出 现 。 交 通 拥堵 、 环 境 污染 、 气 候 变化 、 
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犯罪 率 上 升 等 一 系列 问题 降低 了 城市 的 宜 居 、 宜 产程 
度 。 智 慧 城市 利用 各 类 传感器 采集 的 数据 ， 汇 聚 到 
高 性 能 计算 平台 ， 在 集成 处 理 的 基础 上 ， 服 务 城市 
决策 、 社 会 生产 和 居民 生活 。 而 遍布 城市 的 各 类 传 
感 器 及 物 联网 设备 采集 的 数据 ， 呈 现 爆 炸 式 增长 。 
2018 年 ， 中 国 的 数据 总 量 约 为 7.6ZB (1ZB=10” 字 
节 ) ， 占 全 球 总 量 的 23.4%。 预 计 到 2025 年 ， 中 
国 的 数据 总 量 将 增长 至 48.6 ZB ， 占 全 球 数据 总 量 
的 27.8%， 中 国 将 成 为 全 球 最 大 的 数据 圈 " 

大 规模 数据 的 产生 ， 对 数据 管理 和 处 理 技术 提出 
了 严峻 的 挑战 。 如 何 从 各 种 各 样 类 型 的 大 量 非 结 构 
化 视频 数据 中 精准 提取 目标 信息 ,包括 人 、 车 、 物 
以 及 各 种 行为 信息 ， 仍 是 视频 信息 处 理 的 难点 。 未 来 
的 5G 通 信 技 术 能 够 提供 极 快 的 传输 速度 ， 支 持 更 多 的 
终端 接 入 ,缩短 延 时 时 间 。 通 信和 时间 大 幅 缩 短 之 后 s 
“请 求 -响应 ”时 间 的 长 短 对 实时 计算 的 要 求 更 高 ， 作 
为 支撑 智慧 城市 深入 发 展 和 广泛 应 用 的 核心 技术 ， 高 
性 能 计算 也 面临 着 机 遇 和 挑战 。 

当前 主流 型 号 服务 器 ， 支 持 10 一 100 通道 视频 实 
时 处 理 ， 大 城市 监控 视频 达到 10 一 100 万 个 摄像 头 ， 
后 台 处 理 就 可 能 需要 1 万 节点 规模 。 

1.2 高 性 能 计算 在 生命 信息 领域 应 用 不 断 拓展 

生物 计算 ,包括 DNA 数据 处 理 、 蛋 白质 结构 预 
测 、 脑 模拟 等 ， 近 20 年来， 呈现 快速 发 展 态 势 。 这 些 
计算 大 部 分 也 是 数据 密集 型 的 。 

(1) 在 基因 数据 处 理应 用 方面 。 高 通 量 测序 
技术 的 进步 ， 推 动 了 基因 数据 爆炸 性 增长 。 然 而 ， 
DNA 包含 信息 的 复杂 性 ， 仍 对 数据 分 析 算 法 提出 新 
挑战 。 机 器 学 习 在 基因 组 分 析 与 预测 的 多 个 方面 获 
得 研究 与 应 用 ， 如 识别 转录 起 始 位 点 /前 切 位 点 /TF 结 
合 位 点 、 预 测 基因 功能 /疾病 表 型 等 中 。 深 度 学 习 应 用 
的 最 新 突破 已 经 在 预测 性 能 方面 超过 了 许多 传统 的 统 
计 推 断 算法 ， 并 且 机 器 学 习 在 基因 组 学 中 的 癌症 诊 
断 、 临 床 遗 传 、 作 物 改 良 、 流 行 病 、 公 共 了 卫生、 人口 
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遗传 、 进 化 、 功 能 基因 组 等 均 具 有 明显 发 展 潜力 。 当 
前 ， 大 多 数 问题 的 预测 能 力 都 没有 达到 实际 应 用 的 预 
期 ， 对 这 些 抽象 模型 的 解释 也 没有 阐明 深刻 的 认识 。 
如 何 有 效 利 用 机 器 学 习 获 取 更 强大 、 更 智能 的 基因 组 
解释 能 力 ， 还 需要 探索 依赖 于 特定 任务 的 机 器 学 习 模 
型 。 

(2) 在 蛋白 质 结构 预测 应 用 方面 。 和 蛋白 质 结构 
预测 与 设计 对 深入 理解 蛋白 质 结构 和 功能 具有 重要 意 
义 。 和 蛋白 质 是 一 切 生 命 系 统 的 物质 基础 ， 但 其 生物 功 
能 的 发 挥 ， 需 要 和 蛋白质 正 确 折 羞 为 特定 的 3D 结构， 
蛋白 质 折 秋 人 研 究 也 是 药物 设计 的 基础 。 实 验 学 的 方法 
如 X 射 线 (X-ray) 、 核 磁 共振 (NMR ) 和 冷冻 电镜 
解析 蛋白质 3D 结构 普遍 存在 设备 昂贵 、 时 间 和 人 力 成 
本 过 高 等 问题 。 开 发 能 够 自动 、 快 速 、 准 确 地 将 未 知 
蛋白 序列 分 类 为 特定 折 县 类 别 的 计算 预测 方法 成 为 计 
算 生 物 学 家 长 期 努力 的 方向 。 使 用 深度 卷 积 神经 网 络 
和 残存 网 络 高 精度 的 预测 蛋白 中 的 氨基 酸 -氨基 酸 接触 
作用 ， 并 将 预测 结果 直接 用 于 蛋白 质 3D 结构 重建 是 近 
期 的 一 个 热点 外 。 谷 歌 DeepMind 将 AlphaGo 转 型， 开 
发 了 可 预测 蛋白 质 折 生 的 程序 AlphaFold， 并 以 该 项 目 
参加 了 全 球 蛋 白质 结构 预测 竞赛 CASP13 ， 取 得 了 优 
异 的 成 绩 。 麻 省 理工 学 院 (MIT ) 的 Belpler fil Berger 
利用 人 工 智 能 CAI) 技术 ， 直 接 通 过 氨基 酸 序列 预测 
蛋白 质 分 子 的 生物 学 功能 。 

(3) 在 脑 模拟 和 脑 科 学 应 用 方面 。 脑 病变 给 人 类 
带 来 的 经 济 和 生活 负担 远 远 超过 其 他 领域 ， 已 成 为 全 
球 致 残 的 首要 因素 。2013 年 欧盟 推出 了 15 个 欧洲 国家 
参与 、 预 期 10 年 的 “人 类 脑 计 划 ” ， 该 计划 侧重 于 借 
用 超级 计算 机 技术 ， 通 过 研究 脑 连接 图 谱 模拟 脑 神 经 
网 络 功能 。 自 该 计划 以 后 ， 其 他 国家 纷纷 提出 各 自 脑 
计划 。 人 脑 大 约 由 10" 个 神经 元 和 10" 个 突 触 组 成 。 
现 有 的 模拟 研究 多 用 于 小 区 块 模拟 ， 规 模 约 10 个 神 
经 元 。 小 规模 模拟 存在 明显 局 限 性 ， 其 中 神经 元 连接 
的 约 50% 突 触 分 布 在 区 块 以 外 ， 而 功能 回路 在 整个 大 
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脑 内 完成 ， 区 块 之 间 相 互 影响 明显 。 全 脑 模 拟 计算 规 
模 巨 大 ， 现 阶段 难以 实现 。 当 前 , 已 达到 的 最 大 规模 
脑 网 络 模拟 是 基于 开源 软件 NEST 完成 的 中 。 该 网 络 
包括 1.51x10? 个 神经 元 和 1.68x102 个 突 触 ， 在 日 本 超 
级 计算 机 K (3688128 节点 ， 每 节点 8 核 ，2 GHz，16 
GB RAM ) 上 全 节点 运行 模拟 。 该 模拟 达到 了 人 脑 规 
模 的 1096. 

(4) 在 新 药 创制 应 用 方面 。 高 性 能 计算 可 在 加 速 
药物 研发 ， 降 低 药物 开发 风险 的 多 个 方面 发 挥 重 要 作 
用 ， 如 超大 规模 第 选 药物 先导 化 合 物 、 大 规模 搜寻 药 
物 潜在 靶 点 、 精 确 计算 蛋白 配 体 自由 结合 能 、 精 确 计 
算 电 子 级 别 靶 点 药物 共 价 和 非 共 价 作 用 、 复 杂 生 物体 
系 模拟 、 药 物 网 络 化 相互 作用 等 。 国 内 ， 北 京 大 学 、 
中 国 科学 院 上 海 药 物 研 究 所 、 上 海 交通 大 学 在 相关 领 
域 做 出 了 可 喜 成 果 。 
1.3 高 性 能 计算 在 网 络 信息 安全 方面 获得 深入 应 用 

网 络 信息 安全 已 经 成 为 国家 安全 的 基石 。 近 年 来 
高 性 能 计算 技术 也 被 广泛 用 于 解决 信息 安全 中 面临 的 
问题 。 典 型 应 用 场景 ， 如 模拟 攻防 对 抗 网 络 靶 场 、 大 
数据 隐私 保护 和 入 侵 检测 等 。 

(1) 网 络 靶 场 。 这 是 一 种 为 网 络 技术 、 信 息 安 全 
攻防 技术 和 信息 安全 构想 等 提供 定量 和 定性 评估 的 实 
验 环 境 ， 具 备 可 信 性 、 可 控 性 和 可 操作 性 强 等 特点 。 
HAT, MEDCARE, wE, AKAA H A 
等 国 实施 。 在 网 络 靶场 中 ， 往 往 需要 支持 不 同安 全 等 
级 环境 下 的 计算 机 网 络 防御 、 侦 查 、 攻 击 测试 ， 需 要 
靶场 具有 对 虚拟 节点 的 可 扩展 能 力 ， 以 生成 成 千 上 万 
的 测 斌 节点。 例如， 互联 网 环境 生成 技术 LARIAT™ 
可 用 于 模拟 互联 网 上 的 HTTP、HTTPS、TCP/IP、 
SSH 和 SMTP 等 协议 ; 为 了 给 网 络 靶场 中 成 千 上 万 节 
点 生成 的 大 规模 网 络 流量 ，LARIAT 分 布 式 地 配置 在 
每 一 个 节点 上 。 

(2) 隐私 保护 。 隐 私 保护 是 大 数据 时 代 面 临 的 
重大 挑战 。 大 数据 技术 往往 具有 两 面 性 。 一 方面 ， 研 
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究 人 员 可 以 通过 大 数据 发 现 数据 之 间 的 内 在 关联 ， 提 
供 对 事物 的 多 视角 洞察 ， 给 数据 持 有 者 更 多 的 决策 信 
Bs 另 一 方面 ， 攻 击 者 对 大 数据 的 内 在 联系 的 分 析 ， 
往往 使 得 数据 的 隐私 难以 得 到 有 效 的 保障 。 在 除去 患 
者 标记 的 某 种 疾病 病例 中 ， 攻 击 者 可 以 通过 社保 、 出 
行 记录 、 消 费 记录 等 数据 来 综合 推断 出 患者 的 信息 。 
因此 ， 大 数据 中 的 数据 隐私 保护 是 至 关 重 要 的 。 

(3) 入 侵 检 测 。 和 信 侵 检测 和 防御 系统 有 一 定 的 
实时 性 ， 因 此 后 台 对 于 数据 处 理 的 性 能 要 求 较 高 。 
Erfani 等 "提出 了 一 种 深度 置信 和 网络 和 单 边 支持 向 量 机 
混合 的 模型 用 于 异常 检测 。 从 实验 结果 来 看 ， 采 用 高 
性 能 算法 以 后 训练 的 时 间 减 少 为 原来 的 13， 测试 的 时 
间 减 少 为 原来 的 1/1 000。 

1.4 传统 高 性 能 计算 应 用 的 数据 驱动 新 方法 获得 成 

功 实践 

(1) 石油 勘探 领域 新 方法 。 新 兴 的 海量 地 震 数 
据 采 集 对 地 震 数据 处 理 、 解 释 、 建 模 等 工作 提出 了 极 
高 的 挑战 ， 大 规模 数据 处 理 理论 与 技术 研究 成 为 当前 
的 研究 热点 。 人 工 智能 在 石油 勘探 的 应 用 研究 主要 分 
为 3 类 : 解释 、 预 处 理 、 反 演 。Q@ 地 震 数 据 解释 是 较 
时 发展 AI 方 法 的 领域 ， 以 AI 代替 人 机 交互 为 目的 ， 
解决 大 规模 数据 解释 。 传 统 地 震 解释 属于 人 为 工作 ， 
需要 大 量 工作 人 员 与 专家 参与 。@) 数据 预 处 理 以 提高 
地 震 信号 质量 为 目的 ， 如 数据 重建 、 噪 音 压制 、 滤 小 
等 。 传 统 预 处 理 多 利用 积分 变换 方法 ， 多 存在 常见 的 
不 理想 现象 。 新 兴 的 AI 方法 能 够 取得 更 好 的 预 处 理 效 
Ro O 全 波 型 反 演 是 近期 的 研究 热点 ， 其 迭代 收敛 导 
致 计算 量 大 幅度 上 升 ， 且 信号 噪音 的 存在 导致 出 现 局 
部 极 小 值 收敛 的 问题 。 基 于 AI 方 法 的 反 演 成 像 ， 取 得 
了 一 定 进展 。 然 而 ，AI 技 术 的 应 用 对 数据 存储 和 计算 
资源 也 提出 更 高 要 求 。 

(2) 气象 预报 领域 新 方法 。 数 值 预报 是 高 性 能 
计算 的 传统 应 用 领域 ， 几 乎 在 任 一 时 期 ， 数 值 天 气 预 
报 系统 都 使 用 了 当时 最 快速 的 高 性 能 计算 机 。AI 在 
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天 气 预 报 领域 的 应 用 有 较 长 历史 。 当 前 ，AI 技 术 在 
天 气 和 和气 候 领 域 中 的 应 用 研究 主要 包括 : 观测 数据 
质量 控制 、 卫 星 数据 反 演 及 数值 模式 资料 同化 、 数 值 
模式 参数 化 及 后 处 理 、 天 和 气 系统 识别 、 极 端 和 灾害 性 
天 气 预报 、 短 时 临近 预报 、 台 风 海 洋 天 气 预 报 、 气 候 
分 析 和 预测 、 环 境 污 染 相 关 预 报 、 可 再 生 能 源 相 关 的 
预报 等 中 。2013 年 ，Earth Risk 发 布 的 TempRisk Apollo 
40 天 的 气温 概率 预报 模式 ， 利 用 深度 学 习 方 法 填补 
了 传统 的 数值 天 气 预报 15—30 天 之 间 的 延伸 期 预报 
空白 。2016 年 ，IBM 通过 收购 The Weather Company 
(RAAT), KM 0.2 一 1.2 英里 小 尺度 超 局 地 天 气 
的 准确 预报 ， 精 准 服务 于 运输 公司 、 公 共事 业 单 位 甚 
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化 设计 和 制造 ， 并 实现 了 全 球 资源 共享 。 美 国 波音 
公司 从 20 世纪 80 年 代 起 ， 在 飞机 设计 中 利用 计算 机 
仿真 替代 了 大 量 的 风 洞 实验 等 传统 的 物理 实验 和 样机 
验证 过 程 。 现 在 物理 实验 反而 成 为 验证 和 辅助 手段 
(图 1) ， 飞 机 的 设计 周期 大 大 缩短 ， 研 发 费用 大 幅 
度 下 降 。 从 飞机 布局 研究 、 关 键 气动 部 件 设 计 、 发 动 
机 设计 到 飞机 性 能 分 析 ， 都 广泛 应 用 到 了 计算 流体 力 
(CFD) 技术 。 飞 机 全 机 计算 中 ， 采 用 工程 注 流 模 
式 的 全 机 网 格 规模 早 就 突破 千 万 量 级 。 

汽车 工业 中 ， 以 计算 机 仿真 为 核心 的 数字 化 开 
发 是 重要 的 技术 突破 ， 也 被 认为 是 继 福 特 流 水 线 生 
产 、 丰 田 精益 生产 之 后 ， 汽 车 工业 具有 革命 性 意义 


至 是 零售 商 。2017 年 ， 中 国 气 象 局 联合 天 津 大 学 共同 
研发 的 全 国 强 对 流 服 务 产品 加 工 系统 ， 运 用 图 像 识 别 
和 深度 学 习 等 新 技术 ， 判 断 出 未 来 30 分 钟 内 强 对 流 天 
气 发 生 和 影响 的 区 域 ， 并 发 布 空间 分 辨 率 为 1 公里 ， 
每 6 分钟 滚动 更 新 的 预测 产品 。 然 而 ， 仅 基于 图 像 识 
别 和 深度 学 习 的 预报 方法 无 法 涵盖 天 气 过 程 发 生 的 物 
理 基 础 ， 仍 然 无 法 取代 传统 数值 模式 预报 。 未 来 ， 随 
着 计算 能 力 提升 和 AI 方法 的 进步 ， 气 象 预报 领域 应 用 
是 否 能 有 新 的 突破 ， 值 得 气象 学 者 与 计算 机 学 者 共同 
协作 ， 进 一 步 探索 。 


2 高 性 能 工业 计算 推动 制造 向 智 造 迈进 

计算 机 仿真 用 于 模拟 现实 ， 并 且 用 于 探索 新 的 理 
论 ， 设 计 新 的 实验 ， 以 及 测试 新 的 理论 。 当 现象 无 法 
观测 ， 测 量 不 切实 际 或 者 过 于 昂贵 的 时 候 ， 仿 真 为 实 
验 和 观测 科学 提供 了 男 一 种 选择 。30 年 来 ， 仿 真理 论 
和 技术 对 工程 领域 才 产生 了 巨大 的 影响 ,计算 仿真 检 
代 了 大 部 分 的 物理 实验 ， 而 且 有 一 些 无 法 做 实验 的 极 
端 工 况 可 用 计算 机 来 仿真 。 计 算 机 仿真 的 水 平 是 衡量 
工业 企业 竞争 力 的 主要 标志 之 一 ， 计 算 机 仿真 是 成 就 
未 来 工程 和 科学 发 展 的 关键 。 

国际 上 著名 的 制造 业 大 公司 已 实现 了 产品 的 虚拟 


的 重大 技术 进步 。 以 汽车 安全 性 研究 为 例 来 看 ， 早 
期 的 汽车 耐 撞 性 研究 主要 采用 实验 手段 来 进行 ， 车 
对 障碍 物 的 撞击 试验 是 评价 一 辆 汽车 抗 撞 强 度 的 唯 
一 方法 。 制 造 商 为 了 评价 某 种 车 型 零 部 件 更 改 的 效 
果 并 证 明 最 终 产 品 符合 各 项 汽车 安全 标准 ， 需 要 投 
入 数 百 万 美元 的 费用 进行 数 百 次 试验 ， 这 是 一 种 很 
昂贵 的 试 错过 程 。 从 零 部 件 直至 整 车 装配 级 别 的 研 
发 设计 阶段 都 有 大 量 计算 分 析 ， 涉 及 刚度 、 强 度 、 
噪声 、 振 动 与 声 振 粗 烟 度 (NVH ) 、 机 构 运 动 、 
碰撞 模拟 、 板 件 冲压 、 疫 劳 和 空气 动力 学 分 析 等 方 
面 ， 计 算 机 仿真 发 挥 着 无 可 符 代 的 优势 和 作用 ， 从 
而 大 幅度 提高 设计 质量 ， 缩 短 产 品 开发 周期 ， 节 省 
大 量 开发 费用 。 

上 海 汽 车 公司 在 十 多 年 来 “荣威 ”系列 车 型 开发 过 
程 中 ,， 均 借助 了 超级 计算 平台 完成 了 大 量 虚拟 安全 碰撞 
试验 计算 工作 ,使 虚拟 碰撞 试验 数量 、 分 析 精 度 、 精 细 
程度 和 设计 周期 等 都 接近 全 球 一 流 汽车 研发 水 平 。 


3 新 型 应 用 发 展 趋势 

新 型 行业 应 用 的 计算 行为 基本 特征 就 是 数据 密 
集 。 大 数据 涌现 在 高 性 能 计算 应 用 广度 和 深度 的 进 一 
步 拓展 方面 、 高 性 能 计算 系统 发 展 方面 、 高 性 能 算法 
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和 软件 研发 方面 ， 带 来 一 些 新 的 趋势 。 
3.1 高 性 能 计算 应 用 广度 和 深度 进一步 拓展 

(1) 大 数据 应 用 层出不穷 。 在 物 联网 技术 、5G 
技术 及 各 种 数据 采集 技术 快速 发 展 的 背景 下 ， 以 大 数 
据 为 基本 特征 的 各 类 应 用 层出不穷 ， 从 智慧 城市 、 生 
命 健康 到 粒子 物理 、 天 体 物理 ， 大 数据 应 用 广度 和 深 
度 不 断 拓展 。 

(2) 传统 问题 的 人 工 智能 求解 带 来 新 机 遇 。 人 工 
智能 产生 应 用 的 基本 条 件 ， 大 数据 和 计算 力 已 经 发 展 
到 新 阶段 ， 人 工 智 能 对 传统 问题 ， 生 命 健康 、 基 础 物 
理 乃 至 气象 气候 预报 、 石 油 勘 探 等 众多 领域 ,产生 积 
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器 (GPU ) 到 张 量 处理 器 ( TPU ) 、 深 度 计算 器 
(DCU ) 等 专用 硬件 的 流行 ， 高 性 能 计算 加 速 芯片 不 
断 涌现 。 其 中 TPU 包 是 近年 来 Google 提出 的 专用 于 深 
度 学 习 加 速 的 张 量 处 理 单 元 ， 其 提供 低 精 度 高 通 量 的 
计算 。 相 比 GPU，TPU 拥有 更 高 的 VO (输入 /输出 ) 
效率 和 更 低 的 能 耗 。 

(2) 大 数据 处 理 对 超级 计算 机 网 络 提出 新 要 求 。 
典型 的 大 数据 处 理 问题 ， 数 据 UO 等 从 存储 到 计算 的 
频繁 程度 和 带宽 需求 大 幅度 上 升 ， 而 计算 进程 之 间 
通信 更 多 以 小 消息 为 主 ， 约 占 消 息 总 数 的 95%5。 因 
此 ， 大 数据 处 理 对 存储 网 络 和 计算 网 络 的 性 能 需求 ， 


极 推 动作 用 。2018 年 Gordon Bell 奖 之 一 ， 就 是 利用 深 
度 学 习 方 法 ,分 析 气 候 变 化 模式 "。 

(3) 多 领域 问题 协同 分 析 陆 续 出 现 。 大 数据 的 积 
累 和 计算 力 的 大 幅度 提升 ， 也 为 复杂 系统 或 多 领域 问 
题 协 同 分 析 创 造 了 可 能 ， 如 环境 与 生态 的 模拟 问题 、 
物理 化 学 和 生命 的 多 尺度 分 析 、 精 准 医疗 等 。 
3.2 高 性 能 计算 系统 研发 面临 新 的 发 展 机 遇 

(1) 专用 加 速 硬 件 兴 起 。 从 传统 的 图 形 处 理 


产生 显著 分 离 。 

(3) 大 数据 处 理 平台 的 非 功 能 需求 特点 。 新 的 业 
务 对 应 用 提出 了 众多 非 功能 性 的 需求 ， 如 要 求 应 用 具 
备 快 速 开 发 、 可 扩展 、 易 重用 、 有 统一 接口 、 有 完整 
的 生态 供 下 游 业 务 进行 作业 ， 以 及 自动 容错 等 。 
3.3 高 性 能 算法 与 软件 设计 面临 新 的 挑战 

(1) KAHE 4E He 69 A SLE HS KERÝ 
据 处 理 问题 ， 最 终 转化 成 矩阵 计算 ， 这 些 和 矩阵 通常 


计算 性 能 和 准确 性 的 提升 
第 卡尔 非 结构 化 的 
波音 工 网 格 技术 TRANAIR TLNS3D-MB CFL3D/ZEUS 适应 网 格 
波音 工具 A502 A488 TRANAIR 优化 ZEUS CFD++ 3D-NS 
CEDE. 
1980 1985 1990 1995 2000 2005 (年 ) 
767 757 787 
波音 产品 
1980 年 的 最 新 技术 现代 紧密 耦合 机 舱 安 装 ， 比 457、767 技 术 更 高 度 受 限 的 机 杜 设 成 功 地 多 点 比 之 前 的 飞行 。 CFD 用 于 负载 ， 
比 737-200 快 0.02 马 力 快 的 机 杜 ， 速 度 提 计 比 737-300 更 快 优化 设计 器 更 快 更 有 效 。 稳定 性 和 控制 
77 高 20% 
风 洞 Aj USES 
vs.CFD 


64412019F - 283435 - 58 6 EH 


CFD 运 行 


更 少 的 测试 ， 更 低 的 成 本 ， 更 好 的 产品 
图 1 新 兴 高 性 能 计算 行业 应 用 及 发 展 战略 
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RARE ( 零 元 数据 个 数 远 远大 于 非 零 元 数据 个 
数 ) ， 但 一 般 不 具备 偏 微分 方程 求解 问题 中 稀 下 矩 
阵 非 零 元 对 角 分 布 特性 。 另 外 ， 传 统 的 稀 朴 矩阵 求 
通常 要 求 精 确 解 ， 但 随 着 新 应 用 的 出 现 ， 人 们 对 
于 稀 鸣 和 矩阵 的 求解 精度 要 求 ， 往 往 让 位 于 求解 速度 
的 要 求 。 例 如 ， 在 商品 推荐 、 搜 索引 擎 和 社交 网 
络 等 大 规模 推理 任务 中 ， 用 户 往往 只 需要 在 Top k 
(Rank k) 的 结果 中 出 现 想 要 的 结果 ， 即 认为 求解 
符合 预期 。 而 在 求解 性 能 方面 ， 可 能 要 求 计算 复 杂 
WE O(D (k<<n) 的 算法 。 

(2) 大 数据 时 空 性 特点 。 新 兴 智 慧 城市 等 应 用 
中 ， 时 空 特 性 越 来 越 受 到 人 们 的 关注 。 例 如 : 交通 流 
量 预测 中 ，GPS 前 后 有 很 强 的 时 序 关 系 ; 自然 语言 处 
H (NLP ) 中 ， 上 下 文 前 后 词语 之 间 也 呈现 出 明显 的 
时 空 特性 。 

(3) 大 数据 高 维度 特点 。 数 据 的 维度 通常 随 着 业 
务 问题 规模 的 增 大 而 指数 级 增 大 。 为 了 约 减 数据 集 的 
维度 ， 研 究 人 员 通 常 采 用 特征 抽取 、 去 不 相关 、 去 低 
方差 和 去 常量 属性 等 技术 。 数 据 体 量 大 增加 了 数据 维 
度 约 减 的 难度 。 

(4) 异 构 大 数据 融合 特点 。 大 数据 往往 是 异 构 
的 ， 数 据 的 属性 是 不 一 致 的 。 面 临 体 量 大 、 种 类 多 和 
数据 持续 产生 等 特点 。 如 何 有 效 地 融合 多 个 异 质 数据 
集 并 挖掘 出 其 中 有 用 的 信息 ， 是 高 性 能 计算 需要 解决 
的 问题 。 

(5) 大 规模 图 处 理 特点 。 基 于 图 来 发 现 事物 之 间 
的 关联 性 是 大 数据 领域 的 典型 问题 。 大 规模 图 处 理 往 
往 面临 数据 局 部 性 差 、 数 据 前 分 困难 、 通 信 开 销 大 等 
挑战 ， 而 实际 应 用 对 于 算法 实时 性 又 往往 存在 较 高 要 
求 。 随 着 数据 体 量 的 增 大 ， 如 何 进 一 步 减少 数据 的 处 
理 时 间 ， 是 高 性 能 计算 面临 的 新 挑战 。 


4 新 型 应 用 发 展 战略 建议 
针对 上 述 新 趋势 ， 高 性 能 计算 发 展 面临 新 需求 、 
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新 机 遇 ， 我 们 建议 大 力 推动 高 性 能 计算 系统 、 高 性 能 
计算 环境 、 高 性 能 计算 应 用 等 各 个 层面 的 创新 ， 促 进 
高 性 能 计算 在 科技 创新 和 国民 经 济 社会 发 展 的 各 个 层 
面 ， 发 挥 更 大 的 作用 。 
4.1 加 大 高 性 能 计算 系统 核心 技术 创新 力度 

(1) 加 大 专用 加 速 硬件 创新 支持 力度 。 新 兴 应 
用 对 硬件 加 速 计算 提出 了 更 高 的 VO 需求 和 更 低 的 能 
耗 要 求 ， 传 统 的 众 核 加 速 处 理 器 难以 适应 新 兴 应 用 需 
求 ， 有 必要 加 大 专用 众 核 加 速 处 理 器 的 创新 与 发 展 ， 
为 新 兴 应 用 提供 更 强大 的 高 性 能 计算 环境 。 

(2) 加 大 超级 计算 机 网 络 创 新 力度 。 为 解决 大 数 
据 存储 与 计算 VO 次 数 和 带宽 需求 大 幅 提升 问题 ， 有 
必要 加 大 存储 和 计算 网 络 的 1O 性 能 的 创新 与 发 展 ， 
适应 现 有 大 数据 处 理 对 通信 次 数 和 粒度 的 需求 。 
4.2 构建 面向 新 型 应 用 的 高 性 能 计算 环境 

(1) 加 大 大 数据 系统 平台 创新 力度 。 为 适应 新 兴 
应 用 对 非 功能 性 需求 的 提出 ， 有 必要 发 展 大 数据 系统 
平台 在 可 应 用 性 、 可 扩展 性 、 容 错 性 的 创新 ， 建 立 更 
加 完整 的 超 算 生态 环境 。 

(2) 加 大 人 工 智 能 开放 平台 创新 力度 。 针 对 人 
工 智 能 应 用 全 流程 ， 包 括 数 据 预 处 理 、 训 练 、 参 数 调 
整 、 过 程 监控 、 测 试 等 步骤， 进行 统一 规划 管理 ， 研 
发 构建 领域 数据 集 和 智能 开发 一 体 化 环境 ， 有 效 降低 
非 专业 领域 用 户 、 科 研 用 户 使 用 难度 ， 全 面 服务 智能 
应 用 创新 。 
4.3 大 力 推进 高 性 能 应 用 软件 研发 

(1) 大 力 推进 新 型 应 用 软件 研发 。 大 数据 、 人 工 
智能 方兴未艾 ， 智 能 技术 被 视 为 第 四 次 技术 革命 的 标 
志 性 技术 ， 我 们 应 大 力 推 进 智能 制造 、 精 准 医疗 、 生 
命 健康 、 智 慧 助理 、 智 慧 能 源 、 智 能 驾驶 、 虚 拟 靶 场 
等 各 类 应 用 研发 ， 促 进 新 型 应 用 更 广 更 深入 拓展 。 

(2) 大 力 推进 高 性 能 应 用 软件 和 工具 软件 研发 。 
目前 高 性 能 计算 应 用 软件 和 工具 软件 占 统治 地 位 的 是 
美国 发 展 的 ， 在 该 领域 我 国 自主 可 控 能 力 十 分 薄弱 ， 
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差距 巨大 ， 其 至 远 远 落 后 于 硬件 的 发 展 ， 风 险 极 高 ， 4 Jordan J, Ippen T, Helias M, et al. Extremely scalable spiking 
计算 规模 和 复杂 度 也 不 够 。 需 要 持续 推进 高 性 能 计算 
软件 和 工具 软件 研发 。 
4.4 大 力 推 进 传 统 应 用 的 新 方法 开发 5 Damodaran S K, Couretas J M. Cyber modeling & simulation 
传统 的 计算 化 学 、 计 算 物 理学 、 计 算 生 物 学 等 交 
又 学 科 仍 在 快速 发 展 ， 药 物 智 能 筛选 、 分 子 动力 学 模 
拟 等 面临 新 的 发 展 机 遇 ， 和 气候 模 拟 、 气 象 预报 、 能 源 
开发 、 脑 模拟 、 社 会 模拟 等 面临 新 的 突破 ， 大 力 推进 6 Erfani S M, Rajasegarar S, Karunasekera S, et al. High- 
数据 驱动 新 方法 研发 具有 重要 意义 。 


4.5 大 力 推进 大 数据 人 工 智 能 等 新 领域 基准 评测 工 


neuronal network simulation code: from laptops to exascale 


computers. Frontiers in Neuroinformatics, 2018, 12(2): 1-21. 


for cyber-range events// Proceedings of the Conference 


on Summer Computer Simulation. San Diego: Society for 


Computer Simulation International, 2015: 1-8. 


dimensional and large-scale anomaly detection using a linear 


one-class SVM with deep learning. Pattern Recognition, 2016, 


qm 具 研 发 58: 121-134. 

E. 新 型 应 用 数据 呈现 混合 精度 、 数 据 密 集 与 IO 密 7 McGovern A, Elmore K L, Gagne D J, et al. Using artificial 
LO EEM, MRTA REDLER E, MEAR DA Linpack intelligence to improve real-time decision-making for high- 
E 为 代表 的 基准 测试 已 经 不 能 反映 新 型 应 用 的 计算 需 impact weather. Bulletin of the American Meteorological 
To o. 迫切 需要 研发 能 够 代表 新 型 应 用 计算 行为 特征 的 Society, 2017, 98(10): 2073-2090. 

Es 新 领域 基准 评测 工具 。 8 Kurth T, Treichler S, Romero J, et al. Exascale deep learning 
a for climate analytics// Proceedings of the International 
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新 兴 高 性 能 计算 行业 应 用 及 发 展 战略 


Development Strategy of Emerging Applications of HPC 


FENG Shengzhong" LIGenguo” LIXuelei QIFumin HUANG Dian WANYi WU Jincheng! 
(1 National Supercomputing Center in Shenzhen, Shenzhen 518055, China; 
2 Shanghai Supercomputer Center, Shanghai 201203, China) 

Abstract The rapid development of data-intensive emerging application areas in recent years is one of major characteristics of the 
extensive and in-depth applications of high performance computing (HPC). The HPC applications in the emerging areas bring new 
challenges and opportunities at all levels of HPC, including system technological innovation, computing environment innovation, and 
application innovation. Based on reviewing the application progress of HPC in the emerging areas, this paper summarizes the current 
technical characteristics and challenges, and provides strategic recommendations for the development of emerging HPC application 
areas, including increasing the core technology innovation of HPC systems, building HPC environment for emerging application 
areas, promoting the development of HPC application software and new methods for traditional applications, as well as promoting the 
development of benchmarking tools in new areas such as big data and artificial intelligence. 


Keywords emerging application areas, data-driven, data-intensive computing, high performance computing (HPC) 
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